從不同韻律格式驗證階層式韻律架構並兼論對語音科技的應用 (One Base Form of Discourse Prosody Goes a Long Way- Evidence of Sytle Dependent Contribution and Possible Applilcation to Technology Development) [In Chinese]

نویسندگان

  • Chiu-yu Tseng
  • Zhao-yu Su
چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]

由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...

متن کامل

結合聲學與韻律訊息之強健性語者辨認方法 (Combination of Acoustic and Prosodic Information for Robust Speaker Identification) [In Chinese]

語者辨認系統在公共電話網路中,通常會遇到未知不匹配話筒和辨認語料不足的問題。 為增進語者辨認系統對未知話筒之強健性,與有效利用有限語料,我們提出一融合下層聲學 與上層韻律訊息之架構,首先利用(1)最大相似先驗知識內插法(maximum likelihood-a priori knowledge interpolation,ML-AKI)方法估計與補償話筒聲學特性,並以(2)最小 錯誤鑑別式法則(Minimum Classification Error, MCE)訓練語者模型,以拉大不同語者間 聲學模型的距離,與利用(3)韻律訊息特徵分析(eigen-prosody analysis, EPA)為輔助,量 測不同語者間的韻律模型距離,最後利用(4)線性迴歸的方式融合聲學與韻律模型分數得到 最後的辨識結果。 實驗使用 Handset TIMIT(HTIMIT)語料庫,以 leave-on...

متن کامل

使用韻律階層及大量詞彙的中文文轉音系統 (A Mandarin Text-to-Speech System Using Prosodic Hierarchy and a Large Number of Words) [In Chinese]

余明興、張唐瑜、許燦煌、蔡育和 國立中興大學資訊科學所 [email protected], [email protected], [email protected], [email protected] 摘要 本論文實作了一個中文的文轉音系統(Test-to-Speech)系統,它使用大量的詞彙來做為合成單 元(Synthesis units),並且配上適當的韻律階層。韻律階層可以使語意更加清晰,也可以幫助選取 適當的合成單元。因此本篇論文主要包含兩個重點:韻律階層的求取和以大量詞彙作為合成單元 的架構,在韻律階層的求取上,我們實驗了利用剖析器為基礎的方法以及著名的統計式方法 -CART(Classification And Regression Trees)來進行求取。我們使用大量詞彙來當成我們的合成單 元,可以免去許多語音處理不易...

متن کامل

基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]

根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007